干货|银行智能欺诈风险预测模型研究
The following article is from 金融科技实战 Author 老田
近年来,伴随移动互联网、虚拟现实等技术的飞速发展,银行服务模式日趋多样化。在客户享受灵活便捷服务的同时,银行欺诈风险呈现出更加隐蔽、专业的特点,发展出更多的作案手法和表现形式。传统欺诈检测通常依赖专家规则、黑名单库等方法,已经不能适应新的欺诈挑战。银行亟需研究并应用先进的机器学习算法,以数据价值为驱动建立智能化的风险预测模型,以此作为欺诈风险防范的强力手段。
一、银行反欺诈发展趋势
国内外银行在传统反欺诈管理中主要依赖专家经验,通过人工方式制定检测规则,当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略。这种管理模式得出的反欺诈规则存在一定的局限性,不能枚举所有业务场景,无法对各类欺诈行为进行全面覆盖。与此对应,欺诈者会针对性的对已有规则进行回避,导致专家规则处于被动调整的位置,无法跟上欺诈手段的更新换代[1, 2]。另外,当专家规则积累达到一定数量后误报率通常会比较高,能够影响到实际风险决策制定和实际业务开展。
机器学习是一种重要的金融科技创新手段,近年来在国内外金融机构和金融科技企业中被尝试应用到风险防范、反欺诈等领域。例如花旗银行、美国银行、汇丰银行等机构广泛应用逻辑回归、神经网络等技术以提升欺诈识别能力;京东金融与ZestFinance组建的合资公司以数据挖掘建模为核心竞争力,在反欺诈领域深入应用机器学习技术以发挥大数据价值。机器学习是一种研究机器获取新知识和新技能,并识别现有知识的方法[3];通常针对大规模数据集进行全方位综合考量,挖掘深层次业务场景特征进而建立监督、无监督等类型的学习模型,在大量应用中模型的准确性、稳定性也得到了充分验证[4]。
为此,我们针对信用卡申请审批这一典型业务场景,应用机器学习技术进行欺诈风险管理并设计数据产品对异常客户进行监控预警。区别于将机器学习技术应用到单一反欺诈规则制定的典型做法,我们尝试从整体视角对欺诈风险进行评估,实现精准量化预测并以此作为应对欺诈风险的强有力手段。建模思路及方法具有一定的可迁移性,可以被广泛应用到银行风险防范、反欺诈等业务领域。
二、“会思考”的风控模型
在应用大数据支持业务发展转型的过程中,我们提出构建增强智能(Augumented Intelligence)系统[5]的创新思路。一个务实的增强智能系统包括客户画像、数据挖掘模型和决策引擎三个组成部分。数据挖掘模型是智能化的核心,客户画像为建模过程持续提供特征输入,决策引擎将模型输出成果转换为实际业务行动。增强智能系统的一个重要目标是提升传统业务流程的自动化水平,过程中的大数据能力主要体现在三个方面,也就是下图中的三个组成部分:更好的客户认知、更智能化的算法、更快速的决策支持。
图1:增强智能系统组成模块
数据挖掘模型发挥动力引擎作用,吸收学术界和产业界先进机器学习知识成果并应用于银行实践。客户画像重点体现大数据背景下的客户多维度刻画,在静态信息和交易行为信息之外可以补充社交网络维度特征信息。伴随大数据的持续采集、生产和交换,客户画像能够进一步补充情绪属性、价值观属性乃至道德属性等信息,为数据挖掘建模提供源源不断的能源输入。决策引擎能够面对业务场景进行快速响应,通过可视化等手段提供自助式业务分析能力,促进数据价值转化为业务行动。
践行上述思路,我们结合传统风险管控和社交网络分析技术,加工基础维度信息和社交维度信息特征指标组成反欺诈客户画像,并应用随机森林等分布式机器学习算法建立欺诈风险预测模型。不同于传统风控模型以年为单位的更新优化周期,智能化预测模型每天都能够进行“思考”,通过更新网络关系并重新训练模型确定最新的欺诈预测思维模式。模型在研发和使用的过程中灵活运用机器学习和社交网络分析技术,催生新型数据产品的开发与应用从而带动传统业务流程的优化。
三、模型构建与结果分析
以银行信用卡申请反欺诈为应用场景,详细描述社交网络构建、特征处理、算法实现、运行结果分析等阶段过程。
1、结合社交视角构造客户特征信息
社交网络分析是融合多学科理论和方法,为理解各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法[6]。社交网络分析方法旨在建立一个网络与真实世界的实体与关系映射,在银行应用中的典型实体包括客户、账户、员工等。社交网络分析通常关注静态和动态两个层面的网络特征,静态特征包括提取网络指标、对网络特征刻画、识别网络群组等;动态特征主要包括描述网络如何随时间推移进行扩散、如何影响其他节点等。
分析信用卡进件审批数据,确定数据中包含四种角色,分别是申请人、申请人亲属、联系人和推广人。在建模实施过程中将申请人角色作为社交网络的关键节点,把申请人、申请人亲属、联系人及推广人这四种角色的移动电话、家庭电话、办公电话的相同作为关系类型。建模过程中构建的社交网络包括780万节点,2.33亿条关系。
在构建完成社交网络后,设计并计算一二阶度、一二阶欺诈数、一二阶欺诈占比、最短路径等网络指标。从网络视角衡量欺诈风险的传播,度反映节点关联好友数量,最短路径反映网络中节点间亲密程度。此外,建模中的客户基础信息包括申请人年龄、手机号、单位电话、电子邮箱、学历、年收入、职位等,针对这些信息需要进行结构化分解、离散化、频度计算等数据预处理操作,共同构建特征以用于后续模型的训练和验证。
图2:反欺诈模型特征构造过程
2、建模方案设计
对进行特征工程化处理的数据进行拆分,设置三组建模数据集,分别是基础信息的数据集(base)、社交信息的数据集(social),以及组合在一起的数据集(combine)。建模过程中采用3折交叉验证的方式完成欺诈风险预测模型建立和训练,并比较多组模型输出的计算结果。
算法选择方面,分别选择逻辑回归(LogisticsRegression, LR),随机森林[7](Random Forests, RF)和深度学习[8](Deep Learning, DL)。逻辑回归是银行风控领域的经典算法,以此作为模型结果的标杆参考。随机森林是一种集成学习算法,利用多棵决策树对样本进行训练并预测;通常单棵树性能表现较弱,但进行组合之后能够提供较好的分类性能,同时算法稳定性较好。深度学习(DL)模型是包含多隐层的多层感知器系统,通过应用综合复杂结构和多重非线性变换构成的多个处理层及对数据进行高层抽象的一系列算法,建立具有数个隐层的多层感知网络并实现各种模式的识别和认知。
模型评价方面,选用AUC、Precision、Recall、Accuracy、F1-measure等指标。其中AUC[9](Area under Curve)是ROC曲线下的面积,介于0和1之间;AUC值表示将两样本正确分类的概率,AUC值越大说明模型分类性能越好。其他指标均是从不同角度衡量模型性能,这里不再详细说明。
3、建模结果分析
如下表所示,前三列数据为应用随机森林(RF)算法在不同数据集上进行的三组模型输出结果。比较结果数据可以发现,通过整合社交属性信息模型各项评价指标较基础信息模型结果均有大幅度提升。不同于基础信息,社交维度重在刻画实体在网络中的关系,其加工指标在建模后呈现出与欺诈风险相关的强特征关系。建模结果中AUC提升7个百分点,F1-measure提升2个百分点,充分验证了建立多维度视角对于提升客户欺诈风险识别能力的有效性。更重要的是,伴随大数据的采集和处理,可以从深度和广度上对客户欺诈风险认知进一步补强,进而持续优化模型的底层数据源。
后面三组数据是在整合数据集上应用三种不同算法,整体表现逻辑回归算法较弱,深度学习居中,随机森林表现最优。结果表明目前模型输入特征与预测目标关联性较好,并且总体特征数量为数十个的量级,还不足以发挥深度学习海量特征无监督优化选择的特性,相比之下随机森林、GBDT[10]等集成学习算法表现更为突出。
四、欺诈监控数据产品
大数据在实际应用中体现出强产品化的特点,通过构建反欺诈数据产品能够快速实现决策引擎的功能;同时原始数据从积累到建模均与该数据产品关联,用户画像建立和持续丰富也与反欺诈业务场景相结合。数据产品通过可视化技术实现自助式分析能力,在数据价值转化为业务行动过程中发挥桥梁作用。
针对信用卡申请反欺诈场景,设计专项数据产品对接相关业务系统。数据产品提供全国进件审批疑似欺诈情况分布图,实时获得所关注区域的欺诈进件分布、欺诈发展趋势、欺诈比重等动态。另外,提供分地区信息概要、进件详情、明细检索和社交网络检索等功能,能够在系统页面查询基础指标统计图(手机和电话特征分布)、不同模型输出的欺诈风险概率值、进件基本信息、进件网络特征、社交指标统计(一度、二度、最短路径)等内容。
图3 审批疑似欺诈情况分布图
五、总结与展望
新形势下银行业务面临的欺诈风险演化出更多的表现形式和作案手法,亟需对传统的欺诈风险防控手段进行“智能化”升级改造。我们基于大数据挖掘方法,综合应用社交网络分析和机器学习算法进行风险量化预测;客户识别角度综合基础维度和社交维度信息,技术角度应用随机森林、深度学习等算法大幅提升预测准确性,共同构成“会思考“的风控模型。模型能够进一步区分欺诈特征,提升信用卡申请欺诈侦测能力,该模型构建在银行风险防范和反欺诈领域具有一定的推广价值。
在下一步研究与实践过程中,我们将结合更多银行内外部数据以完善社交网络特征,对客户进行更加全面的特征刻画将有助于复杂机器学习算法发挥威力;同时,将在业务系统部署智能化反欺诈监控模块,通过数据产品提供欺诈进件分布、欺诈发展趋势、欺诈比重等动态场景以辅助决策,利用数据价值驱动支持业务的发展与转型。
参考文献:
[1] 何毅勇, 余挈. 关于银行业反欺诈的思考[J]. 银行家, 2013, 32(4): 32-6.
[2] 陈世知. 美国信用卡产业中的反欺诈管理 [J]. 中国信用卡, 2008, 12(4): 64-7.
[3] ALPAYDIN E. Introduction to Machine Learning (AdaptiveComputation and Machine Learning) [M]. MIT Press, 2004.
[4] DELAMAIRE L, ABDOU H, POINTON J, et al. Credit card fraud anddetection techniques: a review [J]. Banks & Bank Systems, 2009,
[5] VON AHN L. Augmented intelligence: the Web and human intelligence[J]. Philosophical Transactions of the Royal Society of London A: Mathematical,Physical and Engineering Sciences, 2013, 371(1987): 20120383.
[6] MATTBEWA.RUSSELL, 拉塞尔. 挖掘社交网络 [M]. 东南大学出版社, 2011.
[7] LIAW A, WIENER M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[8] LECUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015,521(7553): 436-44.
[9] BRADLEY A P. The use of the area under the roc curve in theevaluation of machine learning algorithms [J]. Pattern Recognition, 1997,30(7): 1145-59.
[10] FRIEDMAN J H. Stochastic gradient boosting [J]. ComputationalStatistics & Data Analysis, 2002, 38(4): 367-78.
来源|金融科技实战
作者|老田
更多精彩,戳这里: